Efecto del pre-procesamiento en la detección automática de plagio para PAN 2014 y PAN 2015

نویسندگان

  • Jovani A. García
  • Yulia Ledeneva
  • René Arnulfo García-Hernández
چکیده

Resumen. Dentro de la detección automática de plagio, el alineamiento de texto en [1] lo define como el descubrimiento de fragmentos similares de texto entre dos documentos. La cual puede utilizarse en: detección de plagio, identificación de autoría, detección de reúso de texto, recuperación de información, entre muchas otras. El pre-procesamiento consta de diversas técnicas que se aplica en la mayoría de las tareas del Procesamiento del Lenguaje Natural (PLN), en este caso, las heurísticas presentadas son tomadas de los trabajos [1] y [2] de las mejores participaciones en la competencia internacional de detección automática de plagio PAN 2014 y PAN 2015 en la sub-tarea alineamiento de texto monolingüe, con la finalidad de conocer el efecto que tiene la eliminación de stopwords y el uso o no de stemming en las heurísticas antes mencionadas, que son técnicas dentro del pre-procesamiento.

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

XTRA-Bi: Extracción automática de entidades bitextuales para software de traducción asistida

Resumen: El principal inconveniente de los sistemas de memorias de traducción es que para que lleguen a ser productivos requieren un costoso proceso previo de alimentación manual. XTRA-Bi desarrolla métodos de extracción y alimentación automática de segmentos bilingües a partir de corpora paralelos. La clave del método radica en la utilización del formato TMX para la importación de corpus previ...

متن کامل

Implementación del modelo Retinex aplicado al procesamiento de imágenes subacuáticas para mejorar su contenido cromático

Resumen. Una de las principales dificultades para una correcta captura de imágenes subacuáticas utilizando medios electrónicos (cámara fotográfica o de video), se presenta en el mismo ambiente subacuático en donde la iluminación y el tono de la fuente de luz cambian dependiendo de la profundidad del escenario para la captura de la imagen, esto debido a las diferentes longitudes de onda que se l...

متن کامل

Construcción de los WordNets 3.0 para castellano y catalán mediante traducción automática de corpus anotados semánticamente

Este art́ıculo describe una metodoloǵıa de construcción de WordNets que se basa en la traducción automática de un corpus en inglés desambiguado por sentidos. El corpus que utilizamos está formado por las propias glosas de WN 3.0 etiquetadas semánticamente y por el corpus Semcor. Los resultados de precisión son comparables a los obtenidos mediante métodos basados en diccionarios bilingües para la...

متن کامل

Simplificación automática de textos en euskera

En este art́ıculo presentamos el trabajo llevado a cabo dentro del proyecto de tesis doctoral llamado “Egitura sintaktiko konplexuen identifikazioa eta sinplifikazioa euskararen tratamendu automatikoan” (Identificación y simplificación de las estructuras sintácticas complejas en el procesamiento automático del Euskera) que se realiza bajo la dirección de las doctoras Arantza Dı́az de Ilarraza y M...

متن کامل

Herramienta de apoyo en la detección de reutilización de código fuente

Resumen. El acto de tomar parcial o totalmente contenidos generados por otras personas, y presentarlos como propios, sin dar el crédito correspondiente a los autores, es una forma indebida de reutilización de contenidos, considerada como plagio. Desafortunamente, en la actualidad, dada la amplia disponibilidad de contenidos a través de Internet, esta práctica se ha incrementado. La gran mayoŕıa...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:
  • Research in Computing Science

دوره 130  شماره 

صفحات  -

تاریخ انتشار 2016